在许多现实世界中的机器学习应用中,亚种群的转移存在着极大地存在,指的是包含相同亚种群组的培训和测试分布,但在亚种群频率中有所不同。重要性重新加权是通过对训练数据集中每个样本施加恒定或自适应抽样权重来处理亚种群转移问题的正常方法。但是,最近的一些研究已经认识到,这些方法中的大多数无法改善性能,而不是经验风险最小化,尤其是当应用于过度参数化的神经网络时。在这项工作中,我们提出了一个简单而实用的框架,称为“不确定性感知混合”(UMIX),以根据样品不确定性重新加权“混合”样品来减轻过度参数化模型中的过度拟合问题。基于训练 - 注射器的不确定性估计为每个样品的拟议UMIX配备,以灵活地表征亚群分布。我们还提供有见地的理论分析,以验证UMIX是否在先前的工作中实现了更好的概括界限。此外,我们在广泛的任务上进行了广泛的经验研究,以验证我们方法的有效性,既有定性和定量。
translated by 谷歌翻译
在过去的十年中,AI AID毒品发现(AIDD)的计算方法和数据集策划的繁荣发展。但是,现实世界中的药物数据集经常表现出高度不平衡的分布,这在很大程度上被当前的文献忽略了,但可能会严重损害机器学习应用程序的公平性和概括。在这一观察结果的激励下,我们介绍了Imdrug,这是一个全面的基准标准,其开源python库由4个不平衡设置,11个AI-Ready数据集,54个学习任务和16种为不平衡学习量身定制的基线算法。它为涵盖广泛的药物发现管道(例如分子建模,药物靶标相互作用和逆合合成)的问题和解决方案提供了可访问且可定制的测试床。我们通过新的评估指标进行广泛的实证研究,以证明现有算法在数据不平衡情况下无法解决药物和药物挑战。我们认为,Imdrug为未来的研究和发展开辟了途径,在AIDD和深度不平衡学习的交集中对现实世界中的挑战开辟了道路。
translated by 谷歌翻译
机器学习算法使平均训练损失最小化通常由于训练数据之间相关性的贪婪开发而遭受泛化性能差,而训练数据在分配变化下并不稳定。它启发了各种域泛化作品(DG),其中一系列方法(例如因果匹配和鱼类)通过成对域操作来工作。他们需要$ o(n^2)$成对域操作,其中$ n $域通常都很昂贵。此外,尽管DG文献中的一个共同目标是学习针对域引起的虚假相关性的不变表示,但我们强调了减轻对象引起的伪造相关性的重要性。基于观察到多样性有助于减轻虚假相关性的观察,我们提出了利用确定点过程(DPP)的多样性增强了两级抽样框架(DOMI),以有效地在大量域中进行最有用的信息。我们表明,DOMI帮助训练强大的模型,以抵抗来自域侧和对象端的虚假相关性,从而大大提高了旋转的MNIST,旋转的时尚MNIST和IWILDCAM数据集对主链DG算法的性能。
translated by 谷歌翻译
尽管不变风险最小化(IRM)成功解决了分布式概括问题,但在实践中应用时,IRM仍可以损害最佳性。 IRM的实用变体,例如IRMV1,已被证明与IRM存在显着差距,因此即使在简单的问题中也可能无法捕获不变性。此外,IRMV1中的优化过程涉及两个内在冲突的目标,并且通常需要对客观权重进行仔细的调整。为了纠正上述问题,我们将IRM重新制定为多目标优化问题,并为IRM提出了一种新的优化方案,称为Pareto不变风险最小化(Pair)。对可以在客观冲突下适应优化指导。此外,我们表明对可以赋予实用的IRM变体能够在提供适当的指导时用原始IRM克服障碍。我们对ColoredMnist进行实验,以确认我们的理论和对的有效性。
translated by 谷歌翻译
作为建模复杂关系的强大工具,HyperGraphs从图表学习社区中获得了流行。但是,深度刻画学习中的常用框架专注于具有边缘独立的顶点权重(EIVW)的超图,而无需考虑具有具有更多建模功率的边缘依赖性顶点权重(EDVWS)的超图。为了弥补这一点,我们提出了一般的超图光谱卷积(GHSC),这是一个通用学习框架,不仅可以处理EDVW和EIVW HyperGraphs,而且更重要的是,理论上可以明确地利用现有强大的图形卷积神经网络(GCNN)明确说明,从而很大程度上可以释放。超图神经网络的设计。在此框架中,给定的无向GCNN的图形拉普拉斯被统一的HyperGraph Laplacian替换,该统一的HyperGraph Laplacian通过将我们所定义的广义超透明牌与简单的无向图等同起来,从随机的步行角度将顶点权重信息替换。来自各个领域的广泛实验,包括社交网络分析,视觉目标分类和蛋白质学习,证明了拟议框架的最新性能。
translated by 谷歌翻译
学习神经集功能在许多应用中越来越重要,例如产品推荐和AI辅助药物发现中的复合选择。在功能值Oracle下,大多数现有的作品研究方法学方法学方法学都需要昂贵的监督信号。这使得仅在最佳子集(OS)Oracle下仅进行弱监督的应用程序使其不切实际,而研究的研究令人惊讶地忽略了。在这项工作中,我们提出了一个原则上但实用的最大似然学习框架,称为等效性,该框架同时满足OS ORACLE下的以下学习设置功能:i)置入了模型的设定质量函数的置换率; ii)许可不同地面套件; iii)最低先验;和iv)可伸缩性。我们框架的主要组成部分涉及:对设定质量函数的基于能量的处理,深空式体系结构来处理置换不变性,平均场变异推理及其摊销变体。由于这些高级体系结构的优雅组合,对三个现实世界应用的实证研究(包括亚马逊产品推荐,设置异常检测和虚拟筛选的复合选择)表明,EquivSet的表现优于基本线的大幅度。
translated by 谷歌翻译
尽管最近在欧几里得数据(例如图像)上使用不变性原理(OOD)概括(例如图像),但有关图数据的研究仍然受到限制。与图像不同,图形的复杂性质给采用不变性原理带来了独特的挑战。特别是,图表上的分布变化可以以多种形式出现,例如属性和结构,因此很难识别不变性。此外,在欧几里得数据上通常需要的域或环境分区通常需要的图形可能非常昂贵。为了弥合这一差距,我们提出了一个新的框架,以捕获图形的不变性,以在各种分配变化下进行保证的OOD概括。具体而言,我们表征了具有因果模型的图形上的潜在分布变化,得出结论,当模型仅关注包含有关标签原因最多信息的子图时,可以实现图形上的OOD概括。因此,我们提出了一个信息理论目标,以提取最大地保留不变的阶级信息的所需子图。用这些子图学习不受分配变化的影响。对合成和现实世界数据集进行的广泛实验,包括在AI ADED药物发现中充满挑战的环境,验证了我们方法的上等OOD概括能力。
translated by 谷歌翻译
点击率(CTR)预测旨在估算用户单击项目的可能性,是在线广告的重要组成部分。现有方法主要尝试从用户的历史行为中挖掘用户兴趣,这些行为包含用户直接交互的项目。尽管这些方法取得了长足的进步,但通常会受到推荐系统的直接曝光和不活动相互作用的限制,因此无法挖掘所有潜在的用户利益。为了解决这些问题,我们提出了基于邻居相互作用的CTR预测(NI-CTR),该预测在异质信息网络(HIN)设置下考虑此任务。简而言之,基于邻居相互作用的CTR预测涉及HIN目标用户项目对的本地邻域以预测其链接。为了指导当地社区的表示形式,我们从显式和隐性的角度考虑了本地邻里节点之间的不同类型的相互作用,并提出了一种新颖的图形掩盖变压器(GMT),以有效地将这些类型的交互结合到为目标用户项目对生成高度代表性的嵌入。此外,为了提高针对邻居采样的模型鲁棒性,我们在嵌入邻里的嵌入式上执行了一致性正规化损失。我们对数百万个实例进行了两个现实世界数据集进行了广泛的实验,实验结果表明,我们所提出的方法的表现明显优于最先进的CTR模型。同时,全面的消融研究验证了我们模型每个组成部分的有效性。此外,我们已经在具有数十亿用户的微信官方帐户平台上部署了此框架。在线A/B测试表明,针对所有在线基线的平均CTR改进为21.9。
translated by 谷歌翻译
最近,使用随机梯度Langevin Dynamics(SGLD)的非凸实验性风险最小化范例的泛化界限已经过度研究。已经提出了几种理论框架来研究来自不同观点的这个问题,例如信息理论和稳定性。在本文中,我们从隐私泄漏分析中提出了一个统一的视图,以调查SGLD的泛化范围,以及以简洁的方式重新获得以前结果的理论框架。除了理论上的发现之外,我们进行各种数值研究,以统一地评估SGLD的信息泄漏问题。此外,我们的理论和经验结果提供了研究SGLD成员隐私的事先作品的解释。
translated by 谷歌翻译
蛋白质复合物形成是生物学中的核心问题,参与了大部分细胞的过程,以及对应用是必不可少的,例如,药物设计或蛋白质工程。我们解决刚性体蛋白 - 蛋白质对接,即计算地预测来自个体未结合结构的蛋白质 - 蛋白质复合物的3D结构,假设在结合期间蛋白质内没有构象变化。我们设计一种新的成对独立的SE(3)-Quivariant的图形匹配网络,以预测旋转和翻译,以将其中一个蛋白质放置在右对接位置相对于第二蛋白质。我们在数学上保证了基本原理:无论两个结构的初始位置和方向如何,预测复合物都是相同的。我们的模型,名为Equidock,近似于绑定口袋并通过最佳传输和可分辨率的Kabsch算法实现,实现了使用关键点匹配和对准的对接姿势。凭经验,尽管没有依赖于沉重的候选抽样,结构细化或模板,我们才能实现显着的运行时间改进,并且通常优于现有的对接软件。
translated by 谷歌翻译